时政
财经
科技
登录
#Sonnet 3.5
关注
北火
2周前
昨天用 Claude Code 开发,感觉比 Cursor 里面的 Sonnet 4 聪明很多。当时推测可能是 Claude Code 使用了 Opus 4。但是最后一查 cost,居然是使用的 Sonnet 3.5 🤯 只能说 Claude Code 的工程能力是真的强
AI编程工具激战:Claude Code、Gemini Cli崛起· 137 条信息
AI编程:Gemini免费用,Claude手机玩· 192 条信息
#Claude Code
#Sonnet 4
#Opus 4
#Sonnet 3.5
#工程能力
分享
评论 0
0
RichChat
4个月前
刚看到还有人在做一个专门测试大模型“幻觉”的排行榜,这是今年2月11号更新的榜单,排名第一的是Google Gemini-2.0-Flash-001。 不用在图上找文采比较好的DeepSeek R1和Sonnet 3.5了,按照这里的统计都属于上不了榜的水平。。。 榜单的打分逻辑很简单:训练了一个专门检测幻觉的模型,然后用1000篇短文档测试市面上的各大LLM。每个LLM都被要求严格按照文档内容做总结,温度设为0以保证输出的确定性。记录三个关键指标:事实一致性率、幻觉率和回答率。 为什么选择总结任务?- 因为在普通问答中研究者很难判断回答是否属于幻觉。但在总结任务中,由于有明确的参考标准 - 原文本身。这让评估变得客观且可量化。也算是模拟了真实世界中RAG系统的应用场景。
#大模型
#幻觉排行榜
#Google Gemini-2.0
#DeepSeek R1
#Sonnet 3.5
#幻觉检测
#LLM测试
分享
评论 0
0
Michael Anti
6个月前
我个人感觉,每个AI都有自己的思维范式,大家应该用集成式AI平台,同时和效果最好的三个AI进行对话(我自己高频个人使用4o+Gemini 2.0 Thinking+Sonnet 3.5),这样等于和你的三个合伙人组成了决策小组,每时每刻头脑风暴,他们各有特色,你只要看各自对你最有启发、最闪光的论点、为你所用就好了。
#AI
#思维范式
#集成式AI
#决策小组
#头脑风暴
#4o+Gemini 2.0
#Thinking
#Sonnet 3.5
#个人使用
分享
评论 0
0
Gorden Sun
6个月前
Sonnet 3.5就像是程序员,你的要求提的越精细,得到的结果越准确。你要一个钉子,他给你一个钉子;你要一个红色的铜的图钉,他给你一个红色的铜图钉。 OpenAI o1像是产品经理,有时他会退一步思考你的要求背后的真实需求。你要一个钉子,他会思考你要钉子是为了做什么,如果是为了挂一幅画,他会同时推荐钉子以外的方案,例如粘钩、强力胶。 用o1辅助思考,用Sonnet辅助执行。
#程序员
#产品经理
#OpenAI
#Sonnet 3.5
#执行力
#思考
#需求分析
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞